當我們的自變數和應變數都是定量資料的時候,我們就可以用迴歸分析的方法來從中找出兩者之間的關係。簡單的來說,我們可以根據一個變量去預測另一個變量,而他們彼此之間的關係被稱為相關性。
統計學透過迴歸分析,可以找出或是驗證出一些較不直覺的變數關係,而這也是迴歸分析的強大之處!今天就讓我們來搞懂什麼是迴歸分析吧~
首先,我們先把資料畫成散佈圖的形式來觀察,將變數X標示於一維座標圖的橫座標,變數Y標示於縱座標。
假如X增加Y也會增加,X減少Y也會減少,我們就會稱呼兩者之間有「正相關」;反之X增加Y減少,X減少Y增加,則為「負相關」;而X增加Y也不會增加會減少,X增加或減少也不會影響到Y的話,就是「不相關」。
在散佈在座標上圖中的點我們可以畫出一條迴歸線,Y=aX+b。其中a為斜率,也就是所謂的迴歸係數,迴歸係數直觀的告訴我們迴歸線的斜率陡峭程度,越陡峭表示其中一個變量只要改變一點點另一個變量就會有大幅度的改變。
我們要如何判斷迴歸線的好壞呢?這時候我們就需要用到相關係數來衡量兩變量之間的方向與緊密程,當兩個變量同時變化得越緊密,我們就可以說他們兩個之間的相關性越強。
而判定它們的相關係數介於-1~1之間,需要注意的是r=0並不一定表示Y與X間沒有關係,僅表示Y與X間無線性關係。
同樣的,迴歸分析一樣適用於假設檢定!
在做迴歸分析上的解釋時,需要注意兩件事:
那我們要如何去檢測兩變數的因果關係呢?
這個就要使用到「隨機對照實驗」的方法,也就是業界俗稱的「AB testing」!
這個方法無論是在數據分析的領域上,或是產品經理、行銷人員,大多數想要驗證商業上的構想時,都會廣泛和頻繁的用到~因此,讓我們用統計學的角度來重新檢視所謂的AB testing吧!我們明天見~
參考資料:
http://www1.pu.edu.tw/~hdchen/handout_bank/stat/94_4_stat_handout_08.pdf
https://sites.google.com/site/chiashulab/lecture_materials11
https://medium.com/r-語言自學系列/r語言自學日記-13-處理趨勢問題-8eba9bd3df0d
您好,我這學期修的機器學習有用到迴歸分析,但我這個地方有點卡住。
我能問問說迴歸分析是不是就是拿一堆過濾好或是處理完的資料(差異比較大或是無關的值剔除掉)
然後透過套件去看正相關、負相關或無相關,
然後進一步去做預測是不是 同一類 或是 趨勢 ,是這樣子嗎?我問過老師但老師說這個你大學就應該會了,但我沒有學過啊 Q Q
迴歸主要是找到每個自變量對應變量的影響性,因此我們可以查看它的相關性,並透過這條線性來協助預測。
不過要注意的是迴歸與邏輯迴歸是不一樣的東西唷!
好的,感謝您的解惑。
通常都會給一個二維的矩陣的是迴歸分析沒錯吧?